Projeto - Módulo 2: Heart Failure Analysis

Integrantes: Luana Nunes, Daiane Ribeiro de Souza, Sarah David Müzel e Paulo Muraro Ferreira

Descrição dos Dados

Esse trablho é sobre o dataset: Heart Failure Prediction, disponível no kaggle .

As doenças cardiovasculares (DCVs) são a causa número 1 de morte em todo o mundo, levando cerca de 17,9 milhões de vidas a cada ano, o que representa 31% de todas as mortes em todo o mundo. A insuficiência cardíaca é um evento comum causado por DCVs e este conjunto de dados contém 12 paraparâmetros sobre 299 pacientes que sofreram parada cardíaca.

Todos os pacientes apresentavam histórico de disfunção sistólica ventricular esquerda. Sendo classificados nos grupos de risco 3 ou 4 de acordo com a classificação de estágio de falência cardíaca da New York Heart Association (NYHA). Os dados foram coletados durante o período de acompanhamento dos pacientes.

A maioria das doenças cardiovasculares pode ser prevenida abordando os fatores de risco comportamentais, como uso de tabaco, dieta não saudável e obesidade, sedentarismo e uso nocivo de álcool, usando estratégias para toda a população.


Artigo original: Davide Chicco, Giuseppe Jurman: "Machine learning can predict survival of patients with heart failure from serum creatinine and ejection fraction alone". BMC Medical Informatics and Decision Making 20, 16 (2020).

Conhecendo os Dados

Através de uma verificação dos dados, observa-se que:

Os fatores analisados são:

A variável resposta analisada é:

Relatório dos dados

Estatística descritiva

Por meio da estatística descritiva, observa-se que os pacientes estudados tinham:

Sendo que 75% do dataset consiste em pacientes com menos de 70 anos.

Analisando o dataset, verifica-se que dentre os 299 pacientes que sofreram infarto, 96 pacientes foram a óbito, o que representa aproximadamente 32% do total de pacientes.

Correlação


Considere os seguintes pontos ao interpretar o coeficiente de correlação:

A correlação de Spearman, é uma medida de correlação não-paramétrica. Ao contrário do coeficiente de correlação de Pearson não requer a suposição que a relação entre as variáveis é linear, nem requer que as variáveis sejam quantitativas, pode ser usado para as variáveis medidas no nível ordinal.

A correlação de Kendall é uma medida de associação para variáveis ordinais. Uma vantagem de Kendall sobre Spearman é que Kendall pode ser generalizado para um coeficiente de correlação parcial, ou seja, podemos fazer a relação entre duas variáveis acontece sem a influência de outras variáveis. Esta análise mensura a relação entre duas variáveis enquanto a influência de uma ou mais variáveis externas é controlada.

Correlação de Pearson

Pela correlação de Pearson, observa-se que há correlações entre:

Correlação de Spearman's

Pela correlação de Spearman, observa-se que há correlações entre:

Correlação de Kendall

Pela correlação de Kendall, observa-se que:

Analisando as correlações do fatores com DEATH_EVENT

Por meio dos gráficos de correlação é possível observar que a morte ter relação com diversos fatores. Sendo assim serão verificados a distribuição dados de todos os fatores principais com a variável DEATH_EVENT

Idade

Analisando a idades dos pacientes infartados

Nota-se que as idades que mais se repedem são 45, 50, 55, 60, 65 e 70 anos de idade

Para compreender melhor a distribuição das faixas etárias dentro do grupo de pacientes analisado, os dados foram dividos em 5 grupos de idade.

É possível observar que a maioria dos óbitos ocorreu no grupo entre 70 e 95 anos de idade. E a menor quantidade de mortes foi entre 50 e 58 anos

Fumantes

Analisando o hábito de fumar dos pacientes infartados

Nota-se que maioria dos pacientes não eram fumantes, e dos fumantes somente 31,2% faleceram

Pressão alta

Analisando os pacientes com pressão alta (HBP)

Apesar de ser dito que a pressão alta está muito relacionada com pessoas que morrem de infarto e/ou possuem doenças do coração, a maioria dos pacientes não possuía pressão alta. E dos que tinham somente 37,1% faleceram.

Diabetes

Analisando os pacientes com diabetes

Verificou-se que a maioria dos pacientes não possuía diabetes e dentre os que possuíam somente 32% faleceram

Sexo

Constata-se que a maioria dos pacientes estudados eram homem, o que fará com que haja uma maior propensão de distribuições de dados com homens falecidos.

Dentro de cada sexo, nota-se que a porcentagem de óbitos é semelhante, de aproximadamente 32%

Anemia

Com relação a anemia, nota-se que as porcentagens são próximas, pois quase metade dos pacientes possuia anemia. Porém ao verificar dentro dos pacientes anêmicos a porcentagem de óbitos, nota-se que somente 37,5% faleceram.

Creatinofosfoquinase

Análisando a creatinine phosphokinase (CPK) dos pacientes

É possível notar que é uma grande quantidade de outlier nos dados

Ao plotar o gráfico em função da morte, nota-se que a maioria dos pacientes que falecarm tinham entre 0 e 199 de CPK, e ao todo foram 40 pacientes que faleceram nessa condição. Em seguida temos 23 pacientes com 400 a 599 de CPK e 17 pacientes com 200 e 399 de CPK.

Ao comparar com a literatura, nota-se que os valores de referência da CPK são entre 30.00 U/L e 200.00 U/L para homens e entre 29.00 U/L e 168.00 U/L para mulheres.

Com isso, nota-se que a pouco mais da metade das mortes ocorridas foram acima da faixa aceitável. Já com relação as mortes ocorridas entre 0 e 199 cpk devem ser analisadas com comparação com outros fatores para melhor compreensão.

Fração de ejeção do sangue

Analisando os pacientes em função da ejection_fraction (EF).

Verifica-se que há presença de outliers no dados, porém menos que no CPK. A maioria dos pacientes analisados possui um EF entre 35 e 39.

Analisando os óbitos ocorridos, em função da EF, constata-se que quanto menor o valor de EF, maiores as changes do paciente falecer. Sendo que a maioria das mortes ocorreu para EF = 20, 25, 30 e 38.

Plaquetas

Análise da quantidade de plaquetas dos pacientes

Verifica-se que há uma grande quantidade de outliers nos dados de plaquetas dos pacientes. Segundo o boxplot, valores abaixo de 75k e acima de 427k podem ser considerados como outlier. Dentro dos dados considerados normias, a faixa predominate de 260k a 279K

Observa-se que a maioria das mortes ocorreu quando o valor de plaquetas era entre 225k e 274k (48 mortes)

Pela análise dos grupos criados, a maioria dos óbitos ocorrem quando o valor de plaquetas estava entre 25.099 e 226.000

Creatinina sérica

Análise da serum_creatinine (SC) dos pacientes

Novamente nota-se uma grande quantidade de outlier nos dados, sendo considerado um outlier SC>2,1. Os valores de SC mais frequentes são entre 1 e 1,19.

Segundo a literatura, valores acima de 1,5 são considerados anormais e que o paciente deve ter uma disfunção renal.

Observa-se que a maioria dos óbitos ocorreu para valores de SC entre 0,75 e 1,24, porém quando analisado os grupos criados, nota-se que há proporção de mortes maior quando SC>=1,5

Sódio sérico

Análise dos serum_sodium (SS) nos pacientes.

Novamente há outlier nos dados, sendo que um SS< 125 pode ser considerado outlier os valores de SS que mais se repetem são 134, 136, 137 e 140.

Segundo a literatura, a presença de sódio no organismos é muito importante pois auxilia na correto funcionamento dos músculos e nervos. Através de uma exame de sangue é possível verificar o nivel do sódio sérico, o qual se estiver muito baixo pode ter sido causado por insuficiência cardíaca.

De acordo com Maysa Seabra Cendoroglo, médica geriatra do Einstein, o nível de sódio no plasma sanguíneo costuma se manter estável enquanto o indivíduo está saudável ou com as suas doenças controladas. Mas a medida que a pessoa envelhece, pode ocorrer uma espécie de desgaste desse sistema de controle".

Níveis de sódio sérico abaixo de 135 mEq/l é considerado hiponatremia, a qual segundo Barbosa é um dos fatores que agravam a condição de pacientes com problemas cardíacos.

Observa-se que a maioria dos óbitos ocorreu no grupo com SS<135, valor considerado de risco.

Tempo

Análise do tempo de acompanhamento dos pacientes

Não nota-se nenhum outlier nos dados

Observa-se que ocorreram muitas mortes logo no início do período de acompanhamento dos pacientes

Conclusão parcial

Como conclusão parcial, obsevou-se que possuir:

Não foi notado uma influência do tabagismo, diabetes, pressão alta e sexo.

Anova

Por meio dos gráficos da variável DEATH_EVENT em função dos fatores principais pode-se observar uma grade quantidade de outliers. Além disso, em alguns dos casos não se notou um padrão clado da correlação. Para compreender esses fatores influência na variável resposta, foi realizada uma análise de variância (ANOVA), com 95% de confiabilidade.

Primeiramente foi realizada a análise na modalidade one-way, para compreender se cada um dos fatores principais exerciam alguma influência na morte dos pacientes. Em seguida foi realizada uma análise na modalidade two-way, para a qual foram utilizados todos os fatores principais, visando uma análise global.

Os fatores principais que se mostraram influentes no falecimento dos pacientes são:

Em conjunto os seguinte fatores apresentam interação significativa são:

Com base na ANOVA e nos gráficos de correlação, serão plotados gráficos entre age, sex, time, ejection_fraction e serum_creatinine, para compreender como esses fatores se correlacionam com a morte dos pacientes.

Análise das combinações

Análise: sexo, idade e morte

Pela distribuição dos dados nota-se que as mulheres faleceram mais jovens que os homens.

Análise: sexo, tempo, morte

Observa-se que dos pacientes que sobreviveram, em média o companhamento foi entre 150 e 170 dias. Já para os que faleceram foi de proximo de 50 dias. Quando se analisa os quartis, nota-se que de início os homens falecarm mais rápido que as mulheres (até 50%), depois disso as mulheres falecerem mais rápido que os homens.

O que sugere que os homens que sobrevivem aos primeiros 50 dias de acompanhamento conseguiram resistir por mais tempo.

Análise: tempo e idade

Nota-se que quanto mais velho for o paciente, mais rápido ele morrerá.

Análise: Idade e sódio sérico

Para uma melhor compreensão dos dos foi necessário fazer uma limpeza dos dados de sódio sérico

Pelo R² nota-se que essa combinação não explica muito bem os dados, visto que seu valor menor que 5%. Além disso, não se nota um padrão na distribuição dos dados

Análise: CPK e sexo

Devida a grande quantidade de outlier, é necessário fazer uma limpeza para melhor compreensão dos dados

Análise: CPK e sexo

Pode-se notar que a quantidade de as mulheres que faleram foi menor que a de homens em função do nivel de CPK no sangue. Os valores de referência da CPK são:


Sendo assim, nota-se que para ambos os sexos metade os obtidos ocorrem para valores acima de 200.

Análise: serum creatinine e ejection fraction

Apesar do artigo citar que esses são os fatores significativos para a predição do óbito do paciente, ao analisar o gráfico observa-se que a quantidade de outliers acaba prejudicando uma visualização do padrão da distribuição.

Por isso foi feito uma limpeza do fator ejection_fraction, para uma melhor visualização da interação entre os fatores.

Depois das limpezas é possivel observar que com uma baixa ejeção de sangue e valores mais elevados de serum_creatinine, há um maior número de óbitos. Entretanto o valor de R² é menor que 5%.

Para verificar como é essas distribuição entre os sexos foi plotado um gráfico de distribuição por sexo.

Pela distribuição dos dados observa-se que essa relação de EF e SC com a morte foi mais eletiva para os homens.

Alem disso, observa-se que mulheres com EF =30 e SC >1 todas faleceram, fato similar ocorreu para homens com EF=20

Gráfico Interativo

Como uma forma de conhcer a probabilidades do paciente falecer ou não, em função dos fatores, foi gerado um gráfico interativo, visando simular as diversas combinações entre os fatores e assim obter as porcentagem de pacientes que faleceram a depender dessa combinação.

Conclusões Gerais

Segundo o artigo base e baseados em nossas análises, o estudo foi realizado com 299 pacientes paquistaneses (105 mulheres e 194 homens) com mais de 40 anos e que possuiam disfunção sistólica do ventrículo esquerdo e caíam nas classes III e IV da NYHA.

O acompanhamento dos pacientes foi entre 4 e 285 dias, com uma média de 130 dias. Além disso, foram estudados a idade, sódio sérico, creatinina sérica, sexo, tabagismo, pressão arterial (HBP), fração de ejeção (EF), anemia, plaquetas, creatinina fosfoquinase (CPK) e diabetes. Esse fatores foram escolhidos por serem considerados como variáveis ​​potenciais para explicar a mortalidade dos pacientes.

Com base em nossos conhecimentos concluímos que, apesar de ser muito falado que a pressão alta é um dos grandes problemas cardíacos, pelo grupo de pacientes estudados nota-se que esse fator não é estatisticamente significativo e sua contrbuição é de apenas 5%.

Além disso, os fatores diabetes, tabagismo, sexo, CPK, sódio sérico, anemia e plaquetas, também não se mostram significativamente influentes.

Constatou-se que a probabilidade de um paciente com diabetes falecer é de 32%, fumante é de 31,25%, sendo que essas porcentagens são menores que na análise da população geral. Já no caso de ser anêmico a porcentagem é de 35,66% tendo um aumento de chances de morrer de apenas 3,5%. Com relação ao sexo, o fato de ser mulher a chance de falecer é de 32,38% e se for homem de 31,95%.

Segundo a literatura, tanto CPK, creatinina sérica e sódio sérico estão ligados ao funcionamento dos músculos. Sendo que quando o tecido muscular se danifica ele acaba liberando no sangue componentes como a enzima CPK e a creatinina sérica, bem como baixo nível de sódio faz com que o funcionamento dos tecidos musculares sejam prejudicados. Porém, mesmo todos esses fatores sendo indicadores de que um infarto ocorreu, somente a creatinina sérica se mostrou influente para o resultado final.

Com relação aos fatores significativos, vemos que a maior porcentagem de chances de falecer estão no grupo de 70 a 95 anos, com baixo tempo de acompanhamento, uma fração de ejeção baixa e creatinina sérica acima de 1,5.
Já os pacientes que tem maiores chances de sobreviver são os que estão no grupo de 50 a 58 anos, com alto tempo de acompanhamento, alta fração de ejeção e creatinina sérica abaixo de 1,5.

Referências

HOSPITAL ISRAELITA ALBERT EINSTEIN(ed). Hiponatremia, disponievl em https://www.einstein.br/doencas-sintomas/hiponatremia, acesso em 19/11/2021

BARBOSA, R R et al. Hemoglobina e sódio séricos: marcadores prognósticos precoces na insuficiência cardíaca descompensada. INSUFICIENCIA CARDIACA, v. 14, n. 1, p. 2-6, 2019.

CHICCO, D; JURMAN, G. Machine learning can predict survival of patients with heart failure from serum creatinine and ejection fraction alone. BMC Medical Informatics and Decision Making 20, 16 (2020).